无监督的视频域适应是一项实用但具有挑战性的任务。在这项工作中,我们第一次从脱离视图中解决了它。我们的关键想法是在适应过程中将与域相关的信息从数据中删除。具体而言,我们考虑从两组潜在因素中生成跨域视频,一个编码静态域相关信息,另一个编码时间和语义相关的信息。然后开发转移顺序的VAE(Transvae)框架以建模这种产生。为了更好地适应适应,我们进一步提出了几个目标,以限制Transvae中的潜在因素。与几种最先进的方法相比,对UCF-HMDB,小丑和Epic-Kitchens数据集进行了广泛的实验验证了Transvae的有效性和优势。代码可在https://github.com/ldkong1205/transvae上公开获取。
translated by 谷歌翻译
文本视频检索是一项具有巨大实际价值的任务,并受到了越来越多的关注,其中学习时空视频表示是研究热点之一。最先进的视频检索模型中的视频编码通常会直接采用预训练的视觉主链,其网络结构固定,因此无法进一步改进它们以产生细粒度的空间时间表视频表示。在本文中,我们提出了令牌移位和选择网络(TS2-NET),这是一种新型的令牌移动和选择变压器体系结构,该架构会动态调整令牌序列,并从输入视频样本中选择时间和空间维度中的信息令牌。令牌移位模块在时间上暂时移动整个代币特征,来回跨相邻帧,以保留完整的令牌表示并捕获微妙的动作。然后,令牌选择模块选择对局部空间语义贡献最大的令牌。基于彻底的实验,拟议的TS2-NET在主要文本视频检索基准上实现了最先进的性能,包括有关MSRVTT,VATEX,LSMDC,LSMDC,ActivityNetnet和DideMo的新记录。
translated by 谷歌翻译
最近,由于其广泛的商业价值,从视觉丰富的文档(例如门票和简历)中自动提取信息已成为一个热门而重要的研究主题。大多数现有方法将此任务分为两个小节:用于从原始文档图像中获取纯文本的文本阅读部分以及用于提取密钥内容的信息提取部分。这些方法主要集中于改进第二个方法,同时忽略了这两个部分高度相关。本文提出了一个统一的端到端信息提取框架,从视觉上富含文档中提出,文本阅读和信息提取可以通过精心设计的多模式上下文块相互加强。具体而言,文本阅读部分提供了多模式功能,例如视觉,文本和布局功能。开发了多模式上下文块,以融合生成的多模式特征,甚至是从预训练的语言模型中获得的先验知识,以提供更好的语义表示。信息提取部分负责使用融合上下文功能生成密钥内容。该框架可以以端到端的可训练方式进行培训,从而实现全球优化。更重要的是,我们将视觉丰富的文档定义为跨两个维度的四个类别,即布局和文本类型。对于每个文档类别,我们提供或推荐相应的基准,实验设置和强大的基准,以弥补该研究领域缺乏统一评估标准的问题。报告了对四种基准测试的广泛实验(从固定布局到可变布局,从完整的文本到半未结构化的文本),证明了所提出的方法的有效性。数据,源代码和模型可用。
translated by 谷歌翻译
本文介绍了Davarocr,这是一种用于OCR和文档理解任务的开源工具箱。Davarocr目前实施19种高级算法,涵盖9个不同的任务表。Davarocr为每种算法提供了详细的用法说明和经过训练的模型。与以前的OpenSource OCR工具箱相比,Davarocr对文档理解的尖端技术的子任务具有相对完整的支持。为了促进OCR技术在学术界和行业中的开发和应用,我们更加关注使用不同的技术可以共享的模块的使用。Davarocr在https://github.com/hikopensource/davar-lab-ocr上公开发行。
translated by 谷歌翻译
深度神经网络通常使用遇到数量不平衡和分类难度不平衡问题的数据集的性能很差。尽管在该领域取得了进展,但现有的两阶段方法中仍然存在数据集偏差或域转移问题。因此,提出了一个分阶段的渐进学习时间表,从而提出了从表示学习到上层分类器培训的平稳转移。这对严重失衡或较小尺度的数据集具有更大的有效性。设计了耦合 - 调节损失损失函数,耦合校正项,局灶性损失和LDAM损失。损失可以更好地处理数量不平衡和异常值,同时调节具有不同分类困难的样本的注意力重点。这些方法在多个基准数据集上取得了令人满意的结果,包括不平衡的CIFAR10,不平衡的CIFAR100,Imagenet-LT和Inaturalist 2018,并且还可以轻松地将其用于其他不平衡分类模型。
translated by 谷歌翻译
联合学习(FL)是一种分布式机器学习技术,可以在避免明确的数据共享的同时进行协作模型培训。 FL算法的固有保护属性使其对医疗领域特别有吸引力。但是,如果有异质的客户数据分布,则标准FL方法是不稳定的,需要密集的超参数调整以实现最佳性能。常规的超参数优化算法在现实世界中的FL应用中是不切实际的,因为它们涉及大量的培训试验,而计算预算有限,这些试验通常是不起作用的。在这项工作中,我们提出了一种有效的增强学习(RL)的联合次数超参数优化算法,称为自动FEDRL,其中在线RL代理可以根据当前的培训进度动态调整每个客户的超参数。进行了广泛的实验以研究不同的搜索策略和RL代理。该方法的有效性在CIFAR-10数据集的异质数据分配以及两个现实世界中的医学图像分割数据集上进行了验证,用于胸部CT中的COVID-19变病变分段,腹部CT中的胰腺细分。
translated by 谷歌翻译
场景图是一个场景的结构化表示,可以清楚地表达场景中对象之间的对象,属性和关系。随着计算机视觉技术继续发展,只需检测和识别图像中的对象,人们不再满足。相反,人们期待着对视觉场景更高的理解和推理。例如,给定图像,我们希望不仅检测和识别图像中的对象,还要知道对象之间的关系(视觉关系检测),并基于图像内容生成文本描述(图像标题)。或者,我们可能希望机器告诉我们图像中的小女孩正在做什么(视觉问题应答(VQA)),甚至从图像中移除狗并找到类似的图像(图像编辑和检索)等。这些任务需要更高水平的图像视觉任务的理解和推理。场景图只是场景理解的强大工具。因此,场景图引起了大量研究人员的注意力,相关的研究往往是跨模型,复杂,快速发展的。然而,目前没有对场景图的相对系统的调查。为此,本调查对现行场景图研究进行了全面调查。更具体地说,我们首先总结了场景图的一般定义,随后对场景图(SGG)和SGG的发电方法进行了全面和系统的讨论,借助于先验知识。然后,我们调查了场景图的主要应用,并汇总了最常用的数据集。最后,我们对场景图的未来发展提供了一些见解。我们相信这将是未来研究场景图的一个非常有帮助的基础。
translated by 谷歌翻译
深度神经网络(DNN)的记录断裂性能具有沉重的参数化,导致外部动态随机存取存储器(DRAM)进行存储。 DRAM访问的禁用能量使得在资源受限的设备上部署DNN是不普遍的,呼叫最小化重量和数据移动以提高能量效率。我们呈现SmartDeal(SD),算法框架,以进行更高成本的存储器存储/访问的较低成本计算,以便在推理和培训中积极提高存储和能量效率。 SD的核心是一种具有结构约束的新型重量分解,精心制作以释放硬件效率潜力。具体地,我们将每个重量张量分解为小基矩阵的乘积以及大的结构稀疏系数矩阵,其非零被量化为-2的功率。由此产生的稀疏和量化的DNN致力于为数据移动和重量存储而大大降低的能量,因为由于稀疏的比特 - 操作和成本良好的计算,恢复原始权重的最小开销。除了推理之外,我们采取了另一次飞跃来拥抱节能培训,引入创新技术,以解决培训时出现的独特障碍,同时保留SD结构。我们还设计专用硬件加速器,充分利用SD结构来提高实际能源效率和延迟。我们在不同的设置中对多个任务,模型和数据集进行实验。结果表明:1)应用于推理,SD可实现高达2.44倍的能效,通过实际硬件实现评估; 2)应用于培训,储存能量降低10.56倍,减少了10.56倍和4.48倍,与最先进的训练基线相比,可忽略的准确性损失。我们的源代码在线提供。
translated by 谷歌翻译
For Prognostics and Health Management (PHM) of Lithium-ion (Li-ion) batteries, many models have been established to characterize their degradation process. The existing empirical or physical models can reveal important information regarding the degradation dynamics. However, there is no general and flexible methods to fuse the information represented by those models. Physics-Informed Neural Network (PINN) is an efficient tool to fuse empirical or physical dynamic models with data-driven models. To take full advantage of various information sources, we propose a model fusion scheme based on PINN. It is implemented by developing a semi-empirical semi-physical Partial Differential Equation (PDE) to model the degradation dynamics of Li-ion-batteries. When there is little prior knowledge about the dynamics, we leverage the data-driven Deep Hidden Physics Model (DeepHPM) to discover the underlying governing dynamic models. The uncovered dynamics information is then fused with that mined by the surrogate neural network in the PINN framework. Moreover, an uncertainty-based adaptive weighting method is employed to balance the multiple learning tasks when training the PINN. The proposed methods are verified on a public dataset of Li-ion Phosphate (LFP)/graphite batteries.
translated by 谷歌翻译
It is crucial to evaluate the quality and determine the optimal number of clusters in cluster analysis. In this paper, the multi-granularity characterization of the data set is carried out to obtain the hyper-balls. The cluster internal evaluation index based on hyper-balls(HCVI) is defined. Moreover, a general method for determining the optimal number of clusters based on HCVI is proposed. The proposed methods can evaluate the clustering results produced by the several classic methods and determine the optimal cluster number for data sets containing noises and clusters with arbitrary shapes. The experimental results on synthetic and real data sets indicate that the new index outperforms existing ones.
translated by 谷歌翻译